上個章節大概的講了概念與心智能論,這個章節會講一下這個環境 gym_cooking 的挑戰
如果有玩過這款遊戲 overcooked的人,都知道這個是個趣味且破壞感情的有趣團體遊戲。玩家們需要去協調以及分工,做菜、送餐、洗碗… 不過為了簡化研究,在這個 gym 的設定裡面,只有三種餐點:切完的蕃茄、切完的生菜、生菜沙拉(切完的蕃茄+切完的沙拉)。在這個研究,場景也是簡化、限定於三種:
開放式
半開放式 中間一條走廊但沒隔絕
封閉式
1~3 可以看的出來,1最簡單,3最困難,但不一定2比3難,因為半開放的場景 智能體要學習要不要從中間端過去,還是端著繞過去,不過這是純屬猜想。
這裡會有三種類型的智能體兼的模式:
相對於開放式的環境,我們可以想像阻礙性最低,效率可以最佳化。但如果是半開放式,我們就得注意 Spatio-tempral movement 有可能造成賭塞問題。如果是封閉式的話,就一定要講求合作,右邊可能負責切菜、左邊負責出餐。
Too many cooks: Bayesian inference for coordinating
multi-agent collaboration